통계적 방법/분석/분산분석 (문단 편집)

=== 일원분산분석 ★ ===
||<-2><tablebordercolor=#000000><:><#FFFFFF>{{{+1 일원분산분석}}}[BR]{{{-2 One-way Analysis of Variance}}}||
||<colbgcolor=#EEEEEE><:>'''사용목적'''||<colbgcolor=#FFFFFF><:>평균 비교||
||<:>'''집단의 수'''||<:>2개 (흔히 3개) 이상||
||<:>'''자료의 성질'''||<:>범주형 IV 1개[BR]연속형 DV 1개||
||<:>'''측정회차'''||<:>1회||
||<:>'''주요전제'''||<:>집단별 모집단 정규성[BR]집단별 모집단 독립성[BR]집단별 모집단 등분산성||
> ...나무위키 이용자 집단 200명을 대상으로, 나무위키·위키백과·디시위키 3조건으로 세분화하여 각각을 열람하는 경험이 얼마나 재미있게 느껴지는지 인식을 조사하였다. 분석에 사용된 웹 문서는 각 위키위키 서비스별로 10개가 선정되었으며, 전체 문서 분량의 합계는 세 조건 공히 10,000±1,000자가 되도록 통일하였고, 각각을 대표하는 문서의 선정에는 3명의 서로 다른 심사자가 관여하였다. 이후에는 자신의 위키위키 서비스 열람 경험이 얼마나 재미있었는지를 묻는 단일문항 10점 척도를 활용하였다(1＝"매우 재미없었다", 10＝"매우 재미있었다").
> 
> 집단별 재미 인식의 평균 및 표준편차는, 나무위키 조건(n＝66)은 평균 ＃.＃＃점(＃.＃＃)^^a^^, 위키백과 조건(n＝67)은 평균 ＃.＃＃점(＃.＃＃)^^b^^, 디시위키 조건(n＝67)은 평균 ＃.＃＃점(＃.＃＃)^^c^^으로, 모든 평균이 중간값 5.5점에 미치지 못했다. 일원분산분석 결과, 위키위키 서비스별로 세 집단의 평균 사이에는 통계적으로 유의한 차이가 확인되었다(F,,(2,197),,＝＃.＃＃, p＜.05). Scheffe의 사후분석 결과는 세 집단의 평균 사이에 a＝c＞b 관계가 성립하는 것으로 나타났다(ps＜.05). 이상의 결과는 나무위키 자체를 포함한 세 위키위키 서비스가 큰 재미를 주지는 못했으나, 나무위키와 디시위키에 비해서 상대적으로 위키백과의 열람 경험에는 더욱 재미가 부족했음을 보여준다...

일원분산분석을 포함한 모든 분산분석의 논리는, '''세상에는 편차가 존재한다'''[* 여기서의 '편차' 는 variance, 즉 [[분산]]에 해당한다. 이 단어는 통계학 교재들에서는 분산 외에도 '변량', '변동' 등으로 번역되기도 한다. 학계 현장의 은어로는 '노이즈'(noise)라고 부르기도 하며, 이때는 특히 분석할 가치가 없는 편차를 가리킨다.]는 점에서 출발한다는 것이다. 1반 학생들의 수학 점수 평균이 70점이라 해서 그 반 학생들 전원이 70점을 받은 게 아니며, 2반 학생들은 72점이라고 그 반의 모두가 72점인 게 아니다. 그리고 분산분석은 '''이 편차는 집단 간의 편차와 집단 내의 편차로 구분된다'''고 인식한다. 당장 앞의 두 반 사이에도 이미 평균 점수에서 차이가 있다. 1반에 속한 출석번호 15번짜리의 학생이 받은 수학 점수 68점을 그 학년 전체의 수학 점수의 평균과 비교해 보자. 만일 전체 평균이 69점이라면, 해당 학생의 점수는 전체 평균과 －1점의 편차가 존재하지만, 이것은 전체 평균과 1반 평균의 편차(＋1점), 그리고 1반 평균과 15번 학생의 편차(－2점)가 합쳐진 결과이다. 질박한데다 추론(inference)조차 제외한 사례이긴 해도, 분산분석은 개별 관측값의 편차에는 집단 간의 편차와 집단 내의 편차가 모두 반영되었다고 본다.

그런데 위의 사례에서 보듯, 편차라는 것은 기본적으로 개별 관측값과 특정 평균값 사이의 차이가 중요한 것이지, 둘 중에서 어느 쪽이 더 큰지를 따지는 것은 큰 의미가 없다. 이런 정보를 제공하는 것이 바로 (＋) 및 (－) 부호인데, 특히 (－) 부호의 경우 편차들을 합산하는 과정에서 (＋) 부호를 상쇄시키면서 편차합을 0으로 만들어 버린다. [[평균]]이 그렇게 정의되어 있기 때문이다. 이 단계까지 진도를 뽑은 대부분의 수험자들이 짐작하듯이, 통계학자들은 이런 상황에서 각 편차들을 일괄적으로 제곱하여 (－) 부호를 떨궈 버리기로 했다. 그렇게 계산된 것이 바로 '''제곱합'''(SS; sum of squares)이며, 분산분석은 편차합이 아니라 제곱합을 활용한다. 그리고 집단 간의 편차를 제곱합한 것을 '''집단 간 제곱합'''(SS,,B,,; sum of squares between groups), 집단 내의 편차를 제곱합한 것을 '''집단 내 제곱합'''(SS,,W,,; sum of squares within groups)이라고 명명했다.[* 두 용어는 급간(級間)제곱합 및 급내(級內)제곱합으로 번역되기도 한다. 한편 이 논리는 [[통계적 방법/분석/회귀분석|회귀분석]]에서 종속변인 Y값의 평균으로부터의 편차(SS,,T,,)를 회귀선으로 설명해낸 편차(SS,,R,,)와 설명되지 못하고 남겨진 편차(SS,,E,,)로 구분하는 것과도 매우 유사하다. 물론 분산분석에서도 똑같이 총제곱합(SS,,T,,) 개념이 있긴 한데, 이쪽에선 분석에 쓰일 가치가 별로 없어서 기억하지 않아도 무방하다. 완전에타제곱(complete η^^2^^) 계산 때에나 쓰지만 이 계산을 하는 자체가 특수한 상황이다.] 만일 두 수치를 비교했을 때 집단 간 제곱합이 집단 내 제곱합에 비해 충분히 크다면, 집단 내 편차와 비교해 보아 집단 간에도 확실히 차이가 존재한다고 추정하는 게 가능해진다.

하지만 이런 논리는 곧 벽에 부딪힌다. 집단 간 제곱합은 단순히 분산분석에 포함시킬 집단들을 한도끝도 없이 늘리면 그에 따라 괜히 증가하게 마련이고, 집단 내 제곱합도 집단별 관측값의 수(n)를 한도끝도 없이 늘리면 그에 따라 괜히 증가하기 때문이다. 따라서 이런 제곱합 개념을 고스란히 쓸 수는 없고, 주어진 '''집단의 수'''(k)와 '''관측값의 수'''(n)를 '''함께 고려하면서 제곱합의 크기를 비교'''할 수 있는 도구가 필요하다. 유의할 것은, 이때 '함께 고려' 한다는 의미로서 나눗셈을 하는 것은 맞지만, 집단이나 관측값의 수를 고스란히 써서 나누는 것이 아니라 그 [[자유도]]를 대신 사용하여 나눈다는 것이다. 이때 집단 간 제곱합의 자유도는 평범하게 '''k－1'''이며,[* 자유도는 보통 χ^^2^^-분포, t-분포를 설명하면서 처음 접하게 된다. 이들 분포가 자유도를 쓰는 이유는 표본분산(s^^2^^)을 바탕으로 하기 때문이다. 표본분산(s^^2^^)을 계산하기 위해서는 먼저 표본평균(m)이 확정되어야 하므로, 여기서 표본평균(m)에 해당하는 1만큼의 자유도가 희생되는 것이다. 마찬가지로 분산분석에서 제곱합(SS)을 계산할 때에도 표본평균(m)이 쓰이니, 자유도가 그만큼 감소하게 되는 것이다.] 집단 내 제곱합의 자유도는 어떤 하나의 집단 내 편차만이 아니라 분석에 포함되는 '모든 집단들' 에 속한 관측값들의 편차를 제곱합하는 것이므로 k개 집단들로부터 얻어진 다수의 표본평균(m)들이 필요하기에 '''n－k'''가 된다.

아무튼 집단 간 제곱합은 k－1 자유도로 나누어지게 되며, 이제 분산분석 결과는 집단의 수(k)로부터 영향을 받지 않게 되었다. 이것을 '''집단 간 평균제곱'''(MS,,B,,; mean squares between groups)이라고 부른다. 마찬가지로, 집단 내 제곱합은 n－k 자유도로 나누어지게 되며, 이제 분산분석 결과는 관측값의 수(n)에도 영향을 받지 않게 되었다. 이것을 '''집단 내 평균제곱'''(MS,,W,,; mean squares within groups)이라고 부른다. 최종적으로 MS,,B,,의 크기가 MS,,W,,의 크기에 비해 얼마나 클지를 비교함으로써, 분석가는 ① 표본 전체의 평균으로부터 각 집단의 표본평균(m,,i,,)들이 산포한 크기가 ② 각 집단의 표본평균(m,,i,,)들로부터 각 집단의 관측값들이 산포한 크기에 비추어 얼마나 큰지 짐작할 수 있다. 이 비율 데이터가 크면 클수록 집단 간의 표본평균들의 편차가 크다고 볼 수 있는 것이다. 이것을 '''F-통계량'''이라고 한다(F＝MS,,B,,/MS,,W,,＝{SS,,B,,/(k－1)}/{SS,,W,,/(n－k)}).

만일 각 집단들의 편차가 집단들 내부의 편차와 하등 다를 바가 없다면, F-통계량은 분모와 분자가 같기 때문에 자연스럽게 1로 산출될 것이다. 이 경우에는 처음부터 이들을 서로 다른 집단으로 묶는 것이 인간의 착각에 불과했던 셈이다. 바꿔 말하면, '''영가설이 참일 때의 F-통계량은 1 이하로 나타나야 한다.''' 그런데 분석가가 실제로 획득한 F-통계량이 1은 아니더라도, 이것이 1과 다를 바 없는 숫자라고 봐야 하는지 아니면 1과는 확실히 다르다고 봐야 하는지 판단할 근거가 필요하다. 이때 활용되는 것이 바로 '''F-분포'''(F-distribution)이다. 이 분포의 구체적인 형태는 대부분의 사회통계 커리큘럼을 벗어나지만, 앞서 소개한 두 개의 자유도인 k－1 및 n－k를 통해서 형태를 특정할 수 있다. 유의수준(α)이 주어져 있을 때, 이제 분석가는 각각의 자유도에서 설정되는 F-분포 속의 임계값(critical value)을 '''F-분포표'''(F-table) 속에서 구한 뒤, 자신이 얻은 F-통계량이 그 임계값의 표지판보다 큰지(H,,0,, 기각) 혹은 작은지(H,,0,, 기각하지 않음) 판단하면 된다. 따라서 F-통계량은 '''우측검정'''이라고 할 수 있다.

이상의 기나긴 절차를 테이블 찾아가며 손으로 굳이 계산하고 있을 필요는 없다. [[SPSS]]가 다 해 준다(…). 중요한 것은 집단 간과 집단 내에서 각각 도출되는 제곱합(SS), 자유도(df), 평균제곱(MS), 그리고 이를 통해서 도출되는 최종적인 F-통계량과 그에 해당되는 유의확률(p)까지 모든 중간 계산과정을 SPSS가 '''분산분석표'''(ANOVA table)로 깔끔하게 보여준다는 것이다. 그래서 분산분석표 속에서 왼쪽 칸에서 오른쪽 칸으로 읽어나가면 그것이 바로 각각의 계산이 진행되는 과정이라고도 할 수 있다. 만일 자신이 직접 얻은 원천자료에서 출력된 분산분석표가 있다면, 그 표와 대조하면서 위의 설명을 다시 읽어보는 것도 도움이 된다. 심지어 이 표는 SPSS에서 회귀분석을 돌려도 똑같이 포함되어서 나오므로, 회귀분석을 실시해야 할 때에도 분산분석의 논리는 최소한 알고 있어야 한다.

* '''H,,0,,''': 분석에 포함된 모든 집단들에서 얻어진 평균들은 서로 차이가 '''없을''' 것이다.
 * '''H,,1,,''': 분석에 포함된 모든 집단들 중 적어도 하나 이상의 평균은 다른 평균과 차이가 '''있을''' 것이다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

통계적 방법/분석/분산분석 (문단 편집)

캡챠